The state-of-the-art language model-based automatic metrics, e.g. BARTScore, benefiting from large-scale contextualized pre-training, have been successfully used in a wide range of natural language generation (NLG) tasks, including machine translation, text summarization, and data-to-text. Recent studies show that considering both major errors (e.g. mistranslated tokens) and minor errors (e.g. imperfections in fluency) can produce high-quality human judgments. This inspires us to approach the final goal of the evaluation metrics (human-like evaluations) by automatic error analysis. To this end, we augment BARTScore by incorporating the human-like error analysis strategies, namely BARTScore++, where the final score consists of both the evaluations of major errors and minor errors. Experimental results show that BARTScore++ can consistently improve the performance of vanilla BARTScore and outperform existing top-scoring metrics in 20 out of 25 test settings. We hope our technique can also be extended to other pre-trained model-based metrics. We will release our code and scripts to facilitate the community.
translated by 谷歌翻译
我们描述了JD Explore Academy对WMT 2022共享的一般翻译任务的提交。我们参加了所有高资源曲目和一条中型曲目,包括中文英语,德语英语,捷克语英语,俄语 - 英语和日语英语。我们通过扩大两个主要因素,即语言对和模型大小,即\ textbf {vega-mt}系统来推动以前的工作的极限 - 进行翻译的双向培训。至于语言对,我们将“双向”扩展到“多向”设置,涵盖所有参与语言,以利用跨语言的常识,并将其转移到下游双语任务中。至于型号尺寸,我们将变压器限制到拥有近47亿参数的极大模型,以完全增强我们VEGA-MT的模型容量。此外,我们采用数据增强策略,例如单语数据的循环翻译以及双语和单语数据的双向自我训练,以全面利用双语和单语言数据。为了使我们的Vega-MT适应通用域测试集,设计了概括调整。根据受约束系统的官方自动分数,根据图1所示的sacrebleu,我们在{zh-en(33.5),en-zh(49.7)(49.7),de-en(33.7)上获得了第一名-de(37.8),CS-EN(54.9),En-CS(41.4)和En-Ru(32.7)},在{ru-en(45.1)和Ja-en(25.6)}和第三名上的第二名和第三名在{en-ja(41.5)}上; W.R.T彗星,我们在{zh-en(45.1),en-zh(61.7),de-en(58.0),en-de(63.2),cs-en(74.7),ru-en(ru-en(ru-en)上,我们获得了第一名64.9),en-ru(69.6)和en-ja(65.1)},分别在{en-cs(95.3)和ja-en(40.6)}上的第二名。将发布模型,以通过GitHub和Omniforce平台来促进MT社区。
translated by 谷歌翻译
电子商务查询通常简短而模棱两可。因此,查询理解通常使用查询重写来消除用户输入查询。在使用电子商务搜索工具时,用户倾向于在购买之前输入多个搜索,我们称之为上下文。这些历史搜索包含有关用户真正购物意图的上下文见解。因此,对此类上下文信息进行建模对于更好的查询重写模型至关重要。但是,现有的查询重写模型忽略了用户的历史行为,而仅考虑即时搜索查询,这通常是一个简短的字符串,提供有关真实购物意图的有限信息。我们建议一个端到端的上下文感知查询重写模型来弥合此差距,从而考虑了搜索上下文。具体而言,我们的模型使用历史记录搜索查询及其包含的单词构建了会话图。然后,我们采用图形注意机制,该机制对交叉关系进行建模并计算会话的上下文信息。随后,模型通过使用聚合网络将上下文信息与即时搜索查询组合来计算会话表示。然后将会话表示形式解码以生成重写的查询。从经验上讲,我们证明了我们方法对各种指标下最先进的方法的优越性。在从线购物平台的内部数据上,通过介绍上下文信息,我们的模型在MRR(平均值等级)指标下取得了11.6%的改善,并在HIT@16度量指标(命中率指标)下提高了20.1%使用最佳基线方法(基于变压器的模型)。
translated by 谷歌翻译
由于缺乏低资源语言的语料库,当前的对话生成作品主要集中在英语上。在本文中,我们介绍了MDIA,这是第一个大规模的多语言基准,用于跨低资源语言进行对话生成。它涵盖了19个语言家庭中46种语言的现实生活对话。我们介绍通过微调多语言,非拨号的预训练的模型MT5以及以英语为中心的,以对话为中心的预训练的预训练的聊天机器人对话,获得了基线结果。结果表明,基于MT5的模型在Sacrebleu和Bertscore上的表现更好,但在多样性方面的性能较差。即使在几乎没有射击和零拍的场景中发现了有希望的结果,但英语和其他语言的一代质量之间存在很大的差距。我们希望MDIA的发布可以鼓励更多关于多语言对话生成的作品,以促进语言多样性。
translated by 谷歌翻译
为了自动纠正手写作业,传统方法是使用OCR模型来识别字符并将其与答案进行比较。 OCR模型在识别手写的汉字时很容易混淆,并且在模型推断过程中缺少答案的文本信息。但是,教师总是考虑到这些答案来审查和纠正作业。在本文中,我们专注于中国披肩测试校正并提出一种多模式方法(命名为AIM)。答案的编码表示与学生笔迹的视觉信息进行了交互。我们没有预测“正确”或“错误”,而是在答案文本上执行序列标记,以推断哪个答案字符与手写内容以细粒度的方式不同。我们将OCR数据集的样本作为此任务的正样本,并开发一种负面样本增强方法来扩展培训数据。实验结果表明,目标的范围优于基于OCR的方法。广泛的研究证明了我们多模式方法的有效性。
translated by 谷歌翻译
实体集扩展(ESE)是一项有价值的任务,旨在找到给定种子实体描述的目标语义类别的实体。由于其发现知识的能力,各种NLP和下游应用程序都受益于ESE。尽管现有的引导方法取得了巨大进展,但其中大多数仍然依赖手动预定义的上下文模式。预定义的上下文模式的不可忽略的缺点是,它们不能灵活地推广到各种语义类别,我们将这种现象称为“语义敏感性”。为了解决这个问题,我们设计了一个上下文模式生成模块,该模块利用自回归语言模型(例如GPT-2)自动为实体生成高质量的上下文模式。此外,我们提出了GAPA,这是一种新型ESE框架,利用上述生成的模式扩展目标实体。对三个广泛使用的数据集进行了广泛的实验和详细分析,证明了我们方法的有效性。我们实验的所有代码都将用于可重复性。
translated by 谷歌翻译
中文拼写检查(CSC)任务旨在检测和纠正中文拼写错误。近年来,相关研究的重点是引入“混乱设置”以增强CSC模型的角色相似性,忽略了包含更丰富信息的字符的上下文。为了更好地利用上下文相似性,我们为CSC任务提供了一个简单而有效的课程学习框架。借助我们设计的模型不足框架,现有的CSC型号将从人类学习汉字并取得进一步改进的培训。对广泛使用的Sighan数据集进行了广泛的实验和详细分析表明,我们的方法的表现优于先前的最新方法。
translated by 谷歌翻译
近年来,尖峰神经网络(SNN)由于其丰富的时空动力学,各种编码方法和事件驱动的特征而自然拟合神经形态硬件,因此在脑启发的智能上受到了广泛的关注。随着SNN的发展,受到脑科学成就启发和针对人工通用智能的新兴研究领域的脑力智能变得越来越热。本文回顾了最新进展,并讨论了来自五个主要研究主题的SNN的新领域,包括基本要素(即尖峰神经元模型,编码方法和拓扑结构),神经形态数据集,优化算法,软件,软件和硬件框架。我们希望我们的调查能够帮助研究人员更好地了解SNN,并激发新作品以推进这一领域。
translated by 谷歌翻译
Biomedical named entity recognition (BioNER) seeks to automatically recognize biomedical entities in natural language text, serving as a necessary foundation for downstream text mining tasks and applications such as information extraction and question answering. Manually labeling training data for the BioNER task is costly, however, due to the significant domain expertise required for accurate annotation. The resulting data scarcity causes current BioNER approaches to be prone to overfitting, to suffer from limited generalizability, and to address a single entity type at a time (e.g., gene or disease). We therefore propose a novel all-in-one (AIO) scheme that uses external data from existing annotated resources to improve generalization. We further present AIONER, a general-purpose BioNER tool based on cutting-edge deep learning and our AIO schema. We evaluate AIONER on 14 BioNER benchmark tasks and show that AIONER is effective, robust, and compares favorably to other state-of-the-art approaches such as multi-task learning. We further demonstrate the practical utility of AIONER in three independent tasks to recognize entity types not previously seen in training data, as well as the advantages of AIONER over existing methods for processing biomedical text at a large scale (e.g., the entire PubMed data).
translated by 谷歌翻译
Covid-19幸存者中很大一部分经历了经常影响日常生活的持续多系统症状,这种疾病被称为SARS-COV-2感染的长期或急性后静脉曲张。但是,识别长期的卷文章是具有挑战性的,因为文章是指使用各种较少常见的术语或根本不使用命名的条件。我们开发了一个迭代的人类机器学习框架,旨在有效利用可用的数据并最有效地利用人类标签。具体而言,我们的方法将数据编程与主动学习结合到了强大的集合模型中。在保留集上评估我们的模型表明了其他方法的灵敏度的三倍。我们将模型应用于PubMed来创建长期的共同集合,并证明(1)最长的卷vid文章在命名该条件时并不是用任何名称(2)来指代长的covid,在生物医学文献中最常使用的名称是长的,并且(3)长互联物与各种身体系统中的疾病有关。长期COVID系列每周更新,可在Litcovid门户网站上进行在线搜索:https://www.ncbi.nlm.nih.gov/research/coronavirus/docsum/docsum?filters=e_condition.longcondition.longcovid.longcovid
translated by 谷歌翻译